iT邦幫忙

2023 iThome 鐵人賽

DAY 23
0

~今天要分享的是「KNN介紹」~

KNN是K-Nearest Neighbors的縮寫,中文譯作K-最近鄰居,此方法是一種監督式機器學習方式,可用於解決迴歸跟分類的問題。
KNN的分析原理是將待預測的樣本與相鄰樣本計算距離,來選出K個最近的鄰居樣本。如果是迴歸問題,會計算這K個樣本的平均值,作為待預測樣本的結果;而如果是分類問題,則會計算這K個樣本的眾數為何,作為待預測樣本的結果。

[考試愛考觀念]
K的選擇對KNN模型的預測結果非常重要:

  1. 若K取1,代表待預測樣本的結果會完全依賴於最近鄰居樣本的數據,這容易導致模型過擬合,使得新樣本的預測結果會有較大的誤差,也就會造成模型泛化能力不好。
  2. 若K取樣本數,則每個待預測樣本的結果會完全依賴於所有樣本的平均值(迴歸問題)或眾數(分類問題),這會導致模型過於簡單,同時失去泛化能力,也就對新樣本會有較不佳的預測結果。
  3. 若想避免在分類問題中出現平票的情況,可以將K取奇數值。

上一篇
鐵人賽第二十二天~集成式學習
下一篇
鐵人賽第二十四天~KNN實作
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言